我们介绍了在Fire 2021举行的Dravidian-Codemix共享任务的结果,是代码混合文本中的Dravidian语言的情绪分析轨道。我们描述了任务,其组织和提交的系统。这种共享任务是去年的Dravidian-Codemix共享任务的延续,在火灾2020举行。今年的任务包括在令牌内部和令互相互补级别的代码混合。此外,除了泰米尔和马拉雅拉姆,还介绍。我们收到了22种Tamil-English,15个用于Malayalam-English系统的系统和15个用于Kannada-English。Tamil-English,Malayalam-English和Kannada-English的顶级系统分别获得加权平均F1分,分别为0.711,0.804和0.630分。总之,提交的质量和数量表明,在这种域中的代码混合设置和最先进状态下对Dravidian语言有很大的兴趣仍然需要更多的改进。
translated by 谷歌翻译
社交媒体平台上的滥用内容的增长增加对在线用户的负面影响。对女同性恋,同性恋者,跨性别或双性恋者的恐惧,不喜欢,不适或不疑虑被定义为同性恋/转铁症。同性恋/翻译语音是一种令人反感的语言,可以总结为针对LGBT +人的仇恨语音,近年来越来越受到兴趣。在线同性恋恐惧症/ Transphobobia是一个严重的社会问题,可以使网上平台与LGBT +人有毒和不受欢迎,同时还试图消除平等,多样性和包容性。我们为在线同性恋和转鸟以及专家标记的数据集提供了新的分类分类,这将允许自动识别出具有同种异体/传递内容的数据集。我们受过教育的注释器并以综合的注释规则向他们提供,因为这是一个敏感的问题,我们以前发现未受训练的众包注释者因文化和其他偏见而诊断倡导性的群体。数据集包含15,141个注释的多语言评论。本文介绍了构建数据集,数据的定性分析和注册间协议的过程。此外,我们为数据集创建基线模型。据我们所知,我们的数据集是第一个已创建的数据集。警告:本文含有明确的同性恋,转基因症,刻板印象的明确陈述,这可能对某些读者令人痛苦。
translated by 谷歌翻译